Explorando la recompensa de tasa de aprobación en el aprendizaje por refuerzo para la generación de código.
Recompensa de tasa de aprobación en RL para generar código: optimiza la generación de código mediante aprendizaje por refuerzo basado en aprobación.